Classification de courriers électroniques. Une approche par apprentissage basée sur des modèles linguistiques
نویسندگان
چکیده
RÉSUMÉ. Nous proposons une double amélioration des systèmes de filtrage de courriels existants. D’une part, en utilisant une méthode d’apprentissage automatique permettant à un système de filtrage d’élaborer des profils utilisateur. D’autre part, nous utilisons un ensemble de connaissances linguistiques sous forme de modèles réduits issues de modèles linguistiques de textes. Dans ce contexte, nous cherchons à évaluer si l’utilisation de connaissances et de traitements linguistiques peut améliorer les performances d’un système de filtrage. En effet, nous utilisons, au-delà des caractéristiques lexicales, un ensemble d’indicateurs sur le message portant sur la structure et le contenu. Ces connaissances sont indépendantes du domaine d’application et la fiabilité repose sur l’opération d’apprentissage. Pour tenter de statuer sur la faisabilité de notre approche et d’évaluer son efficacité, nous l’avons expérimenté sur un corpus de 1 200 messages. Nous présentons les résultats d’un ensemble d’expériences d’évaluation.
منابع مشابه
Séparateurs à Vaste Marge Optimisant la Fonction Fbeta
Dans cet article, nous introduisons une nouvelle paramétrisation des Séparateurs à Vaste Marge (SVM) appelée Fβ SVM. Cette dernière permet d’effectuer un apprentissage basé sur l’optimisation de la fonction Fβ au lieu de l’erreur de classification habituelle. Les expériences montrent les avantages d’une telle démarche par rapport à la formulation soft-margin standard (avec les écarts à la marge...
متن کاملDe la réutilisabilité des applications vers celle des modèles
RÉSUMÉ. Dans de précédents travaux, nous avons proposé une approche basée sur la programmation par aspects et la programmation par sujets pour séparer et composer les préoccupations d’une application. L’objectif était, à travers la définition d’un protocole de composition, d’augmenter la réutilisabilité des classes qui forment une application. Dans le présent article nous proposons de faire évo...
متن کاملClassification automatique de courriers électroniques par des méthodes mixtes d'apprentissage
RÉSUMÉ. Les nouvelles formes de communication écrite (courriels, forums, chats, SMS, etc.) ont introduit des défis considérables pour leur traitement automatique. Ces données présentent des phénomènes linguistiques bien particuliers : messages trop courts, très bruités... Nous présentons des recherches destinées à créer des outils et des ressources génériques pour la classification de courriels...
متن کاملSupporting Effective Software Modeling
RÉSUMÉ. Dans cet article nous identifions les raisons de la faible utilisation des techniques de modélisations dans l’industrie et nous donnons un aperçu d’une approche basée modèle qui peut améliorer l’utilisation des modèles pour le développement des systèmes complexes. Les mécanismes présentés ici reposent sur une approche du développement guidé par les modèles et qui met en avant (1) la réu...
متن کاملForage distribué des données : une comparaison entre l'agrégation d'échantillons et l'agrégation de règles
Résumé. Pour nous attaquer au problème du forage de très grandes bases de données distribuées, nous proposons d’étudier deux approches. La première est de télécharger seulement un échantillon de chaque base de données puis d’y effectuer le forage. La deuxième approche est de miner à distance chaque base de données indépendamment, puis de télécharger les modèles résultants, sous forme de règles ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Revue d'Intelligence Artificielle
دوره 19 شماره
صفحات -
تاریخ انتشار 2005